دسته بندی | برق |
فرمت فایل | docx |
حجم فایل | 1555 کیلو بایت |
تعداد صفحات فایل | 88 |
استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی
در این پایاننامه روشی برای شناسایی مصوتهای فارسی در کلمات تک سیلابی ارائه میشود. برای این منظور پس از جداسازی فریمهای تصویر و انتخاب فریمهایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیهای پیرامون لبها، ویژگیهای مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوتها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگیها را کاهش داده و سایز ویژگیها را به 25 تغییر دادیم. در نهایت موثرترین ویژگیها برای شناسایی مشخص گردید. در این تحقیق از پایگاه دادهای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود استفاده گردید. از 381 ویدیو برای آموزش و از 199 ویدیو برای آزمایش استفاده نمودیم. ویژگیهای استخراجی به عنوان ورودی به شبکه عصبی دو لایه با 20 نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی استفاده کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر استفاده نمودیم. بهترین نرخ شناسایی 95.75 بود که از محاسبه ضرایب MFCC از 4/1 بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.